در طول دهه گذشته، ذخیره ارزانتر دادهها، سختافزار سریعتر و پیشرفت چشمگیر الگوریتمها با هم ترکیب شدهاند تا راهی برای صعود سریع علم دادهها به عنوان یکی از مهمترین فرصتها در محاسبات فراهم شود. درحالی که اصطلاح علم داده میتواند شامل همه چیز، از تمیز کردن دادهها و ذخیرهسازی دادهها تا تجسم آن در نمودارها باشد. استفاده از رایانهها برای یافتن الگوهای جالب موجود در حجم عظیم دادهها، دادهکاوی نامیده میشود، جایی که شامل عناصر سیستمهای پایگاه داده، آمار و یادگیری ماشینی است.
در حال حاضر دهها کتاب بزرگ دادهکاوی و یادگیری ماشین وجود دارد که برای توسعهدهندگان نرمافزار به روز می شود تا از همه این پیشرفتهای موجود در این زمینه اطلاعرسانی کند. آنچه در بیشتر این کتابها با هم مشترک هستند این است که همه آنها مجموعه کوچکی از روشهای آزمایش شده و واقعی را برای یافتن الگوهای دادهها شامل میشوند: طبقهبندی، خوشهبندی، درخت تصمیمگیری و رگرسیون. البته همه اینها روشهای مهمی هستند که میتوان از هر جستجوی داده اطلاعاتی بدست آورد و از محبوبیت بالایی برخوردار است زیرا میتواند موثر باشد. اما همین چند تکنیک کل داستان نیست. دادهکاوی زمینهای غنی است که شامل دهها تکنیک برای کشف الگوها و پیشبینیها است. یک استاد واقعی دادهکاوی باید ابزارهای بسیاری در جعبه ابزار خود داشته باشد، نه تنها چند مورد. بنابراین، مأموریت این کتاب، دادهکاوی با پایتون، معرفی برخی از مفاهیم دادهکاوی کمتر شناخته شده است که معمولاً فقط در کتب درسی دانشگاهی پوشیده شدهاند. این کتاب از زبان برنامه نویسی پایتون و یک رویکرد مبتنی بر پروژه برای معرفی مفاهیم متنوع و غالباً نادیده گرفته شده از دادهکاوی، مانند قوانین انجمن، تطبیق موجودیت، تجزیه و تحلیل شبکه، استخراج متن و کشف ناهنجاری استفاده میکند. هر فصل اصول اولیه یک تکنیک دادهکاوی خاص را به طور کامل نشان میدهد. گزینههای دیگری برای ارزیابی اثربخشی آن ارائه میدهد، و سپس این تکنیک را با استفاده از دادههای دنیای واقعی پیادهسازی میکند.
تمرکز ما روی دادههای دنیای واقعی از دیگر ویژگیهای این کتاب است که آن را از بسیاری از کتابهای دادهکاوی دیگر جدا میکند. آزمون واقعی این که آیا ما یک مفهوم را به دست آوردهایم این است که آیا میتوانیم از یک روش برای یک مشکل جدید و ناشناخته استفاده کنیم. در مورد ما، این به معنی استفاده از هر روش دادهکاوی در یک مکان مشکل جدید یا یک مجموعه داده جدید است. تأکید بر دادههای واقعی همچنین بدان معنی است که نتایج ما ممکن است همیشه به اندازه نتایج حاصل از یک مجموعه دادههای ذخیره شده، پاک و مرتب نباشد. به همین دلیل، هر فصل شامل بحث در مورد چگونگی ارزیابی انتقادی روش است. آیا نتایج معنیدار است؟ این نتایج چه معنیای میدهد؟ چگونه میتوان نتایج را بهبود بخشید؟
بنابراین، از بسیاری جهات، این کتاب جایی را انتخاب میکند که برخی دیگر از کتابهای دادهکاوی آن را نادیده میگیرند. اگر میخواهید جعبه ابزار کاوی داده در حال رشد خود را با مجموعهای از تکنیکهای جالب اما غالبا نادیده گرفته شده، دور هم جمع کنید در ادامه مطلب بخوانید تا موضوعات خاصی را که ما پوشش خواهیم داد و نحوه استفاده آنها در هر فصل بیاموزید.
پیشگفتار...................................................................................................................................... 21
فصل اول: ابزار دادهکاوی خود را گسترش دهید.................................................................... 27
دادهکاوی چیست؟ ..................................................................................................................... 28
به چه شکل از دادهکاوی استفاده کنیم؟ ................................................................................... 31
فیاد(Fayyad) و همکاران- فرآیند KDD........................................................................ 31
هان(Han) و همکاران- فرآیند KDD............................................................................... 32
فرآیند CRISP-DM ....................................................................................................... 33
روند شش مرحله ................................................................................................................. 34
کدام روش دادهکاوی بهترین است؟........................................................................................... 35
در این کتاب از چه تکنیکی استفاده خواهیم کرد؟............................................................... 38
چگونه میتوان محیط کار دادهکاوی خود را تنظیم کرد؟.......................................................... 38
خلاصه......................................................................................................................................... 46
فصل دوم: کاوش قواعد انجمنی................................................................................................. 47
آیتمهای پرتکرار چیست؟........................................................................................................... 48
پوشک و افسانه شهری آبجو ................................................................................................ 48
اصول اولیه استخراج آیتمهای پرتکرار................................................................................... 50
پیروی از قواعد انجمن................................................................................................................ 52
پشتیبانی .............................................................................................................................. 52
اعتماد ................................................................................................................................... 53
قواعد انجمن ........................................................................................................................ 54
مثالی با دادهها ..................................................................................................................... 54
ارزش افزوده - رفع نقص در طرح.......................................................................................... 56
روشهای پیدا کردن آیتمهای پرتکرار.................................................................................. 58
یک پروژه - کشف قواعد انجمن در برچسبهای پروژه نرم افزاری............................................ 60
خلاصه........................................................................................................................................ 79
فصل سوم: تطبیق موجودیت..................................................................................................... 81
تطبیق موجودیت چیست؟......................................................................................................... 82
ادغام دادهها........................................................................................................................... 86
ادغام دادهها به صورت عمودی......................................................................................... 86
ادغام مجموعه دادهها به صورت افقی.............................................................................. 88
تکنیکهای تطبیق................................................................................................................ 89
تطبیق شباهت مبتنی بر ویژگی........................................................................................... 90
مراقب مقایسههای زوج باشید.......................................................................................... 90
مقادیر کمیاب را اعمال میکند....................................................................................... 90
روشهایی برای تطبیق ویژگیها........................................................................................... 91
مبتنی بر محدوده یا فاصله از هدف ............................................................................... 91
فاصله را ویرایش کنید..................................................................................................... 91
چکشکاری...................................................................................................................... 92
فاصله Levenshtein ................................................................................................... 92
Soundex...................................................................................................................... 93
مجموعههای جداگانه اعمال نفوذ......................................................................................... 94
تطبیق شباهت مبتنی بر متن............................................................................................... 95
تطبیق موجودیت مبتنی بر یادگیری ماشین........................................................................ 96
ارزیابی تکنیکهای سازگاری موجودیت............................................................................... 97
کارآیی-چقدر طول میکشد تا تطبیق انجام شود؟......................................................... 97
اثربخشی -جفتهایی که تولید میکنیم چقدر دقیق هستند؟........................................ 98
سودمندی-روش تطبیق چقدر عملی است؟................................................................. 100
پروژه تطبیق موجودیت........................................................................................................... 101
مشکلات در تطبیق پروژههای نرم افزاری........................................................................... 102
دو مثال............................................................................................................................... 102
مطابقت با نام پروژه............................................................................................................ 104
تطبیق نام افراد................................................................................................................... 105
مطابقت باURLها............................................................................................................. 105
تطبیق با موضوعات و کلمات کلیدی توضیحات................................................................ 105
مجموعه داده...................................................................................................................... 107
کد....................................................................................................................................... 109
نتایج................................................................................................................................... 115
چند مورد موجودیت را پیدا کردیم؟............................................................................. 115
جفتهایی که پیدا کردیم چقدر خوب هستند؟........................................................... 117
خلاصه...................................................................................................................................... 120
فصل چهارم: تحلیل گراف ........................................................................................................ 121
گراف چیست؟.......................................................................................................................... 122
اندازهگیری گراف؟.................................................................................................................... 125
درجه یک گراف.................................................................................................................. 126
قطرگراف ........................................................................................................................... 127
پیادهروی مسیرها و مسیرهای پیادهروی در یک گراف...................................................... 129
اجزای یک گراف................................................................................................................. 130
مرکزیت یک گراف ............................................................................................................ 131
مرکزیت نزدیک بودن.................................................................................................. 131
مرکزیت درجه.............................................................................................................. 132
بین مرکزیت ............................................................................................................... 133
سایر اقدامات مرکزیت ................................................................................................ 135
نمایش دادههای گراف.............................................................................................................. 135
ماتریس مجاورت................................................................................................................. 135
لیستهای لبه و لیستهای مجاور..................................................................................... 137
تفاوت بین ساختار دادههای گراف...................................................................................... 138
وارد کردن دادهها به یک ساختار گراف.............................................................................. 139
قالب لیست دلخواه............................................................................................................. 139
فرمت لیست لبه................................................................................................................. 140
GEXF و GraphML .................................................................................................. 141
GDF................................................................................................................................ 142
Python pickle.............................................................................................................. 142
JSON.............................................................................................................................. 143
JSON node وlink series.......................................................................................... 143
درختهای JSON............................................................................................................ 144
Pajek format................................................................................................................ 145
یک پروژه واقعی....................................................................................................................... 147
کاوش در دادهها.................................................................................................................. 147
ایجاد پروندههای گراف ...................................................................................................... 156
درک دادههای ما به عنوان گراف ...................................................................................... 157
ایجاد معیارهای ساده گراف ........................................................................................ 157
بازی با پارامترهای یک گراف ..................................................................................... 161
تحلیل زیرگراف............................................................................................................ 163
تجزیه و تحلیل کلکسیونها و مرکزیت در زیرگرافها................................................. 166
به دنبال تغییر با گذشت زمان هستید........................................................................ 169
خلاصه...................................................................................................................................... 188
فصل پنجم: تحلیل احساسات در متن.................................................................................... 181
تحلیل احساسات چیست؟....................................................................................................... 182
مبانی تحلیل احساسات........................................................................................................... 183
ساختار یک عقیده.............................................................................................................. 184
تجزیه و تحلیل سطح اسناد و جملهها............................................................................... 186
ویژگیهای مهم عقاید......................................................................................................... 186
الگوریتمهای تحلیل احساسات................................................................................................ 187
مجموعه دادههای عمومی................................................................................................... 188
واژگان تجزیه و تحلیل احساسات Hu and Liu's.......................................................... 189
SentiWordNet............................................................................................................ 190
Vader sentiment........................................................................................................ 190
کاربرد تحلیل احساسات ......................................................................................................... 192
ایجاد انگیزه در پروژه.......................................................................................................... 192
آمادهسازی دادهها .............................................................................................................. 193
تجزیه و تحلیل دادههای پیامهای چت.............................................................................. 197
تجزیه و تحلیل دادههای پیامهای ایمیل............................................................................ 202
خلاصه...................................................................................................................................... 209
فصل ششم: شناسایی موجودیت در متن .............................................................................. 211
چرا به دنبال موجودیتهای نامدار میگردید؟........................................................................ 212
تکنیکهای به رسمیت شناختن موجودیت............................................................................. 214
برچسب زدن بخشهایی از گفتار....................................................................................... 216
کلاس موجودیت نامدار....................................................................................................... 218
ساخت و ارزیابی سیستمهای NER....................................................................................... 218
تطابق NER و جزئی........................................................................................................ 219
انجام تطابق جزئی.............................................................................................................. 220
پروژه شناسایی موجودیت........................................................................................................ 223
یک ابزار ساده NER....................................................................................................... 223
Apache Board meeting minutes........................................................................ 225
چت IRC Django......................................................................................................... 227
خلاصه GnuIRC............................................................................................................ 231
نامههای الکترونیکی LKML........................................................................................... 234
خلاصه...................................................................................................................................... 235
فصل هفتم: خلاصهسازی خودکار متن.................................................................................. 237
خلاصهسازی خودکار متن چیست؟......................................................................................... 238
ابزارهایی برای خلاصه کردن متن............................................................................................ 239
خلاصه متن ساده با استفاده از NLTK........................................................................... 239
خلاصه متن با استفاده از Gensim.................................................................................. 243
خلاصه متن با استفاده از Sumy....................................................................................... 246
خلاصهساز Sumy's Luhn .................................................................................... 248
خلاصهساز TextRank Sumy's .......................................................................... 249
خلاصهساز LSA Sumy's ..................................................................................... 249
خلاصه نویسنده ادموندسون....................................................................................... 251
خلاصه...................................................................................................................................... 253
فصل هشتم: مدلسازی موضوع در متن.............................................................................. 255
مدلسازی موضوعی چیست؟................................................................................................. 256
اختصاصی Latich Dirichlet.............................................................................................. 257
Gensim برای مدلسازی موضوع.......................................................................................... 258
درک موضوعات Gensim LDA.................................................................................... 262
درک گذرهای Gensim LDA ...................................................................................... 263
استفاده از یک مدل Gensim LDA در اسناد جدید..................................................... 265
سریال کردن اشیاء Gensim LDA................................................................................ 266
سریالسازی واژهنامه................................................................................................... 266
سریالسازی پیکره...................................................................................................... 267
سریالسازی مدل........................................................................................................ 267
Gensim LDA برای یک پروژه بزرگتر............................................................................... 268
خلاصه...................................................................................................................................... 271
فصل نهم: کاوش ناهنجاری دادهها ........................................................................................ 273
ناهنجاری داده چیست؟........................................................................................................... 273
دادههای از دست رفته........................................................................................................ 274
یافتن دادههای از دست رفته...................................................................................... 274
مقادیر صفر.................................................................................................................. 276
برگرداندن دادههای از دست رفته....................................................................................... 276
مشکل ردیفها را نادیده بگیرید................................................................................. 277
مشکل را به صورت دستی برطرف کنید..................................................................... 277
از یک مقدار ساختگی استفاده کنید............................................................................ 278
از یک معیار مرکزی استفاده کنید............................................................................... 279
استفاده از آخرین مشاهده انجام شده ......................................................................... 280
از یک مقدار مشابه استفاده کنید................................................................................ 281
از بیشترین مقدار استفاده کنید................................................................................... 281
خطاهای داده...................................................................................................................... 281
زمینههای کوتاه شده..................................................................................................... 282
خطاهای مجموعه داده و نوع داده................................................................................. 283
خطاهای منطقی یا معنایی........................................................................................... 284
دادههای پرت...................................................................................................................... 286
Visual mining for outliers ................................................................................. 287
شناسایی آماری دادههای پرت........................................................................................ 288
ردیابی فاصله با نمرات z اصلاح شده................................................................................. 289
خلاصه...................................................................................................................................... 296
فصل دهم: استلزام متنی ........................................................................................................ 297
شناخت استلزام متنی.............................................................................................................. 298
حوزه استلزام متنی................................................................................................................... 299
نقش دانش پیشزمینه....................................................................................................... 302
استلزام متنی در مقابل مفهوم زبانی استلزام....................................................................... 303
توسعه شناسایی استلزام متنی با تشخیص تناقضها.......................................................... 305
فرصتها و چالشهای RTE........................................................................................ 305
استفاده از راهحلهای استلزام متنی............................................................................... 307
پاسخدهی به سوال........................................................................................................ 308
استخراج روایط.............................................................................................................. 309
خلاصهسازی متن.......................................................................................................... 311
کاربردهای دیگر............................................................................................................ 312
ارزیابی استلزام متنی..................................................................................................... 315
RTE1 تا RTE5........................................................................................................ 315
RTE6 و RTE7......................................................................................................... 318
مثال آخر.................................................................................................................................. 320
کار با مجموعه کلمات Stanford’s GloVe + مجموعه داده SNLI.............................. 322
منابع...................................................................................................................................... 327
واژهنامه................................................................................................................................... 331
دسته بندی موضوعی | موضوع فرعی |
فنی و مهندسی |
مهندسی كامپيوتر
مهندسی كامپيوتر |